標準常態分佈的常見值
即 85%、90%、95%、97.5% 和 99%。
需要製定抽樣計劃來設定用於選擇樣本的規則。在簡單隨機樣本中,每個總體元素被選擇的機率相等。它通常也被稱為隨機樣本。
簡單隨機抽樣需要隨機性。這可以透過為群體中的每個成員分配一個隨機數字並使用電腦程式或隨機數字表來選擇成員來完成。
另一種方法是「系統抽樣」。此方法選擇每個 $k_{th}$ 成員,直到達到所需的樣本大小。
在「分層隨機抽樣」中,首先根據某些標準將總體分為子組(層)。簡單隨機樣本是按照子組與整個總體的相對大小的比例從每個子組中抽取的。此方法產生的變異數比簡單隨機抽樣所得的估計值要小。
分層抽樣通常用於創建旨在追蹤「債券指數」的投資組合。
假設:抽樣回報來自同一總體。重要的是數據來自同一人群。對於時間序列數據,這意味著時間段不應該太長,因為可能發生根本性變化(例如經濟衰退)。
橫斷面資料是有關個人或群體在單一時間點的某些特徵的資料。
例如所有標準普爾 500 指數公司的年末本益比。
假設:我們必須確保所有數據確實來自相同的基礎人口。
例如,分析師經常按行業匯總公司級資料。
「樣本平均值」是一個隨機變量,其機率分佈稱為統計樣本分佈。
中心極限定理:給定由具有平均值 $μ$ 和 有限 變異數 $σ^2$ 的任何機率分佈所描述的總體,樣本平均值 $\bar{X} 的抽樣分佈從此總體中大小為$n$ 的樣本計算得出的$ 將近似常態,平均值為$μ$(總體平均值)和變異數$\frac{σ^2}{n}$(總體變異數除以$ n$)當樣本量$n$很大時(通常大於30)。
樣本平均值的標準誤差 (SEM)
:對於從具有標準差 $σ$ 的總體產生的樣本計算得出的樣本平均值 $\bar{X}$,樣本平均值的標準誤差為由兩個表達式之一給出:
$$σ\bar{X}=\frac{σ}{\sqrt{n}}$$
$$s\bar{X}=\frac{s}{\sqrt{n}}$$
在實務中,我們幾乎總是需要使用公式 2。 ^n{(Xi−\bar{X})^2}}{n−1}$
總而言之,根據中心極限定理,當我們從任何分佈中採樣時,只要樣本量很大,樣本平均值的分佈就會具有以下性質:
「統計推論」的兩個分支是「估計」和「假設檢定」。
估計量是用來計算樣本統計量的公式。估計值是從這些估計器得出的特定值。
由於抽樣誤差,點估計不可能完全等於總體參數。 「區間估計」通常較為合適。
“置信區間”是一個可以以給定機率 $1 − α$ 斷言的範圍(稱為“置信度”),其中 α 是“顯著性水準”,它將包含預期的參數來估計。此區間通常稱為「參數的 $100(1 − α)%$ 信賴區間」。
例如,使用 5% 的顯著水準在樣本平均值周圍建立 95% 的置信區間。我們有 95% 的信心認為總體平均值落在這個區間內。
$100(1−α)%$ 信賴區間的計算公式為:
$$點\估計±可靠性\係數\乘以標準\誤差$$
在哪裡
點估計
= 參數的點估計值(樣本統計量的值)
「信度因子」 = 基於點估計的假設分佈與信賴區間的信度 (1 − α) 的數字
「標準誤差」 = 提供點估計的樣本統計量的標準誤差
$z_α$ 表示標準常態分配的點,使得機率的 $α$ 保持在右尾。
註:本例中的信度因子是基於標準常態分佈,平均數為 0,變異數為 1
當我們從已知變異數 $σ^2$ 的常態分佈中取樣時,總體平均值 $μ$ 的 $100(1 − α)%$ 信賴區間由下式給出
$$\bar{X}±z_{\frac{α}{2}}\times \frac{σ}{\sqrt{n}}$$
這會產生一個具有上限和下限的置信區間,總體平均值位於置信區間之外的總機率為 $α$。使用 $z_{\frac{α}{2}}$ 是因為 $\frac{α}{2}$ 表示每個尾部的百分比。
例如,95% 信賴區間對 z_{0.025} 使用 1.96 信度因子,因為總體平均值大於上限的機率為 2.5%,小於下限的機率為 2.5%。其他常用的信度因子包括 90% 信賴區間的 z_{0.05}=1.65 和 99% 信賴區間的 z_{0.005}=2.58。
當從方差未知的任何分佈中採樣且樣本量較大時,總體平均值 $μ$ 的 $100(1 − α)%$ 置信區間由下式給出
$$\bar{X}±z_{\frac{α}{2}}\times \frac{s}{\sqrt{n}}$$
基於標準常態分佈的信賴區間的可靠因素。當我們基於標準常態分佈建立信賴區間時,我們使用以下可靠性因素:
當總體變異數未知時,使用「t 分佈」作為信賴區間較為合適且保守。即使樣本量很小,這也是有效的。由於它更保守(即可靠性因子更大),因此置信區間會更寬。
t 分佈是基於「自由度 (df)」/由「自由度 (df)」定義。自由度與獨立觀察的數量有關。由於必須在計算樣本變異數之前確定樣本平均值,因此實際上只有 $n−1$ 個獨立觀測值。
如果您知道 $n−1$ 個觀測值和樣本平均值,則可以確定 $n_{th}$ 個觀測值。這就是為什麼在計算樣本變異數時必須除以 $n−1$ 而不是 $n$。
**隨著自由度的增加,t 分佈接近標準常態分佈。
# 計算並解釋所有股票總體平均值的 90% 置信區間
size = 100
s = 0.30
# 平均值夏普比率
mean = 0.45
# 求 90% 信賴區間的信度因子。
# Z0.05 = 1.65)
z_005 = 1.65
# 實現等式
lower = mean - z_005 * (s / size**0.5)
higher = mean + z_005 * (s / size**0.5)
print('總體平均值落在區間之間的置信度')
print(str(round(lower, 3)), ',',str(round(higher, 3)))
print('包括置信度為 90% 的總體平均值')
資料探勘涉及相同或相關資料的過度使用。
當數據可用性導致某些資產被排除在分析之外。
對沖基金等較新的資產類別可能會帶來更大的樣本選擇偏差問題。
如果使用的資訊在測試資料上不可用,就會出現「前瞻偏差」。例如,帳面價值等會計資訊在期末後的一段時間內將無法取得。
如果測試設計是基於可能使結果特定於時間段的時間段,則測試設計會受到時間段偏差的影響。
理想情況下,分析師應該測試幾個商業週期的市場異常情況,以確保結果不是針對特定時期的。如果選擇的時間段有利於該策略,則這種偏差可能有利於所提議的策略。